Automation of Systematic Reviews with Large Language Models
이 연구는 대규모 언어 모델 기반 워크플로우 (otto-SR) 가 체계적 문헌고찰의 문헌 선별, 데이터 추출, 편향 위험 평가 등 주요 작업을 인간 연구자보다 높은 정확도로 수행할 수 있으며, 기존 리뷰를 신속하게 재현하고 업데이트하는 데 유효함을 입증했습니다.
199 편의 논문
이 연구는 대규모 언어 모델 기반 워크플로우 (otto-SR) 가 체계적 문헌고찰의 문헌 선별, 데이터 추출, 편향 위험 평가 등 주요 작업을 인간 연구자보다 높은 정확도로 수행할 수 있으며, 기존 리뷰를 신속하게 재현하고 업데이트하는 데 유효함을 입증했습니다.
이 논문은 Reddit 게시물을 분석하여 자연 환경이 사회적 불안이 있는 청소년과 청년들에게 기분 개선과 불안 완화에 도움이 될 수 있지만, 타인의 시선에 대한 두려움으로 인해 오히려 불안을 유발할 수도 있는 복잡한 양면성을 가지고 있음을 밝히고, 이를 고려한 맞춤형 자연 기반 치료 접근법의 필요성을 강조합니다.
이 연구는 웨어러블 아이트래킹과 회상적 사고 말하기 프로토콜을 활용하여, 1 차 진료 의사가 전자의무기록 (EHR) 내 자살 위험 정보를 처리하는 과정에서 EHR 탐색에 많은 시각적 주의를 기울이고 대화가 지연되는 경향이 있음을 규명했습니다.
이 연구는 소아 중환자실의 급성 뇌 기능 장애 예측을 위해 임상 전문가 지식과 인과 구조 학습을 결합하여 45 개 변수를 14 개로 줄이면서도 성능을 유지하는 간결하고 해석 가능한 예측 모델을 개발했음을 보여줍니다.
이 논문은 고도의 인지 부하와 시간적 압박 하에서 응급실 분류 (ESI) 를 지원하기 위해 환자 접수부터 임상적 추론이 포함된 협동적 평가까지의 전 과정을 자동화하고 의사의 자율성을 보장하는 다중 에이전트 AI 프레임워크인 'ED-Triage-Agent'를 제안합니다.
이 논문은 노년층 요양 시설의 정신 건강 위기 대응을 위해 기존 다중 에이전트 오케스트레이션을 대체하고 구조적 불변성을 통해 100% 위기 회수율과 결정론적 안전성을 보장하는 '릴로 엔진 (Lilo Engine)'이라는 5 계층 치료 파이프라인을 설계하고 벤치마크 평가한 결과를 제시합니다.
미국 1,900 만 명 이상의 환자 데이터를 분석한 이 연구는 과다관절형 에를러스 - 단로스 증후군 (hEDS) 환자가 코로나 19 감염 후 장기 후유증 (Long COVID) 에 걸릴 위험이 유의미하게 높으며, 바이러스 감염이 기존에 간과되던 hEDS 증상을 드러내는 계기가 될 수 있음을 시사합니다.
이 연구는 GPT-4 와 Claude-3-Sonnet 과 같은 대형 언어 모델 (LLM) 을 협력적으로 활용하면 체계적 문헌고찰의 선별 과정에서 인간 검토자의 작업을 약 63.5% 절감하면서도 99.9% 의 정밀도와 98.5% 의 재현율을 달성할 수 있음을 보여줍니다.
본 연구는 ChatGPT-4.0 이 인간 코더보다 아편류 중독 치료 혁신을 식별하고 설명하는 데 있어 더 높은 깊이와 관련성을 보였으며, 이는 LLM 이 질적 연구 평가의 효율성과 품질을 향상시킬 수 있음을 시사합니다.
이 논문은 미국 FDA 와 중국 NMPA 의 규제 요구사항을 비교 분석하는 대규모 언어 모델 (LLM) 의 성능을 평가하기 위해 11,871 개의 다중 선택형 질문으로 구성된 이중 언어 벤치마크 'Sino-US-DrugQA'를 소개하고, 현재 LLM 들이 단일 관할권 질의에는 유용하지만 관할권 간 비교 추론에서는 한계를 보임을 규명했습니다.
ASPREE 임상시험 데이터를 활용한 본 연구는 시간 의존적 결과를 예측할 때 생존 분석을 고려한 랜덤 서바이벌 포레스트 (RSF) 가 기존 랜덤 포레스트 (RF) 보다 우수한 분별력이나 보정 능력을 보이지 않았으며, 두 모델의 예측 정확도가 유사함을 보여주었습니다.
본 연구는 4,018 명의 NHANES 환자를 대상으로 한 교차 벤더 벤치마크를 통해, 표준화된 프롬프트 기반 프레임워크가 다양한 LLM 에서 임상 등급의 정확도를 유지하여 벤더에 구애받지 않는 AI 기반 임상 시스템의 실현 가능성을 입증했습니다.
이 논문은 대규모 언어 모델 (LLM) 과 혼합 정수 선형 계획법 (MILP) 을 결합하여 영양 정확성과 개인화, 실용성을 모두 갖춘 정밀 영양 추천 시스템을 개발하고, 기존 단일 모델보다 우수한 성능을 입증했습니다.
이 논문은 희귀질환의 진단 정확도와 임상적 일관성을 향상시키기 위해 환자 표현형 유사성과 네트워크 전파를 결합한 계산 파이프라인을 개발하여, 기존 방법보다 진단 후보를 더 효과적으로 선별하고 임상적으로 일관된 감별진단 가설을 제시함을 보여줍니다.
본 연구는 말뭉치 기반 AI 문서화 시스템이 임상 기록의 언어적 구조와 복잡성에 vendor 와 기록 섹션에 따라 상이한 영향을 미치며, 효율성 평가뿐만 아니라 의사소통과 임상 추론 등 광범위한 영향에 대한 고려가 필요함을 보여줍니다.
이 연구는 영국 바이오뱅크 데이터를 기반으로 6.4~7.8 시간의 수면이 다양한 장기 및 오믹스 데이터에서 최적의 생물학적 노화 지표를 보이며, 6 시간 미만 또는 8 시간 초과 수면이 전신 질환 위험과 사망률을 높이는 U 자형 관계를 확인함으로써 수면 최적화가 건강한 노화와 수명 연장에 중요함을 시사합니다.
이 논문은 임상 AI 시스템에서 기존 검색 기반 생성 (RAG) 이 오히려 환각을 증가시키는 반면, 다양한 환자 데이터를 구조화된 아티팩트로 표현하고 검증 에이전트를 도입하는 방식이 사실적 정확도와 안전성을 획기적으로 개선함을 입증했습니다.
이 논문은 대규모 안저 이미지를 기반으로 한 심층 학습 프레임워크를 개발하여 안구의 생물학적 나이를 정밀하게 추정하고, 노화 과정의 생리적 이질성과 전신 건강 상태 간의 연관성을 해석 가능한 다차원적 방식으로 규명했습니다.
이 연구는 전자의무기록 (EHR) 감사 로그 데이터를 활용하여 입원 환자별 주 담당 임상진을 식별하는 알고리즘을 개발하고, 수동 차트 검토와 비교하여 91% 의 높은 정확도로 검증했음을 보고합니다.